去噪跨视频对比弱监督时序动作定位片段级分类对比学习策略性能验证

强监督训练依赖帧级标签，而弱监督时序动作定位使用视频级标签，当前方法存在片段级分类容易出错的问题

poral action localization, or WS-TAL, where cheap video-level tags are utilized as an alternative supervision sig-nal [38,41,50]. Most existing WS-TAL methods [18,25,38,39, 41, 50, 60, 64] follow a ...

Sora之前的视频生成发展史：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

标签：文生视频 Gen2 Emu Video

第一种是基础模式（Basic Mode），用户只需要提供一张指导图片+文本描述，PixelDance 就可以生成有高度一致性且有丰富动态性的视频，其中指导图片可以是真实图片，也可以利用现有的文生图模型生成。而达到这样拔群的...

远程心率估计：一个基于对比学习的改进方法

标签：远程心率估计非接触式HR估计技术对比学习远程心率估计 ALPINE方法 rPPG方法改进

5029ALPINE：使用对比学习改进远程心率估计Lokendra Birla Sneha Shukla Anup Kumar Gupta Puneet Gupta印度理工学院{phd1901201001，phd2101101006，msrphd2105101002，puneet} @ iiti.ac.in摘要心率（HR）是人体...

人工智能的下半场，一定少不了自监督学习

标签：人工智能的下半场，一定少不了自监督学习

导语：本文从图像、视频、控制三个角度分别介绍了自监督表征学习的最新进展。雷锋网(公众号：雷锋网)AI科技评论按：深度学习在计算机视觉、自然语言处理、语音识别等领域的广泛应用催生了人工智能的第四次爆发。...

OpenAI Sora —— 文生视频为何如此逼真？AI算法架构解析

标签：人工智能机器学习深度学习

Sora是一个革命性的视频生成模型，可以根据用户输入的简单文本脚本自动生成与好莱坞级别画面相媲美的视频内容，其生成的视频不仅仅是对已有素材的拼接或剪辑合成，而是从像素级别全新“绘制”出来的。该模型能够理解...

CVPR 2022 | 上交&腾讯&港中文开源FAME：助力视频表征学习运动感知的数据增强

标签：计算机视觉机器学习人工智能

港中文开源FAME：助力视频表征学习运动感知的数据增强【引言】鉴于对比学习在图像领域的成功，如何在视频表征学习中更好的运用对比学习引起了极大的关注。我们发现，当简单地拉近视频的两个增强视图时，模型倾向于将...

爆火的Sora背后是什么？有哪些应用？首篇Sora综述来了！

标签：自动驾驶算法 3d

Sora是一种文本到视频生成的人工智能模型，由OpenAI于2024年2月发布。该模型经过训练，能够从文本指令中生成逼真或想象的场景视频，并显示出在模拟物理世界方面的潜力。基于公开的技术报告和逆向工程，本文对该模型...

NeurIPS 2022｜南大&腾讯提出VideoMAE：视频自监督预训练新范式

CV微信技术交流群作者丨童湛腾讯AILab研究员来源丨https://zhuanlan.zhihu.com/p/575573336转载自丨极市平台导读首个提出了基于ViT的掩码...即使在较小规模的视频数据集上进行自监督预训练，VideoMAE仍能取得非常优...

多模态机器学习概述及其音视频融合总结

标签：机器学习多模态融合阶段总结神经网络

在此我做个多模态融合之音视频融合总结，概述我阅读的几个文献的核心内容，同时针对一些没有阅读到的，但比较有参考价值和重大意义的文献进行引用。我希望通过这篇文章总结能开拓我以后做研究的视野和方向，希望投稿...

[论文分享]TSPTM-survey：时间序列预训练模型研究综述

标签：深度学习神经网络时间序列

在UCR时间序列数据集上的实验表明，迁移学习可以提高或降低下游任务的性能，这取决于源数据集和目标数据集是否相似。通用编码器首先在标记的源数据集上预训练基网络，然后将基网络转移到目标域。这通常需要大量标记...

Mamba再次击败Transformer！在视频理解任务中杀疯了！

标签： transformer 深度学习人工智能

CVer学术知识星球最大优惠！赠送新用户50元优惠券(下方左图)，老用户7折+20元续费券(下方右图)...探索视频理解的新境界，Mamba 模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型 Mamba 以其在长...

无监督运动分组训练的ConvNet实现对象分割

标签：物体移动观察无监督特征学习基于运动的分组线索目标检测迁移学习低层次的外观线索

具体来说，我们在视频上使用无监督的基于运动的鉴于大量证据表明运动在人类视觉系统的发展中起着关键作用，我们希望这种直接的无监督学习方法比文献中研究的巧妙设计的“借口”任务更有效事实上，我们的大量实验表明...

深度学习框架下群组行为识别算法综述

标签：深度学习算法人工智能

群组行为识别目前是计算机视觉领域的一个研究热点，在智能安防监控、社会角色理解和体育运动视频分析等方面具有广泛的应用价值.本文主要针对基于深度学习框架下的群组行为识别算法进行综述.首先，依据群组行为识别...

云计算实战应用案例精讲-【深度学习】多模态融合（补充篇）

标签：深度学习人工智能机器学习

模态对齐是多模态融合关键技术之一，是指从两个或多个模态中查找实例子组件之间的对应关系。...显式对齐关注模态之间子组件的对齐问题，而隐式对齐则是在深度学习模型训练期间对数据进行潜在的对齐。

CVPR 2022 | 腾讯AI Lab入选论文解读，关注图像理解、生成、建模及可信AI

标签：大数据 python 计算机视觉

感谢阅读腾讯AI Lab微信号第147篇文章。本文介绍腾讯 AI Lab 被 CVPR 2022 收录的研究成果。CVPR（Conference on Computer Vision and Pattern Recognition）是计算机视觉三大顶会之一，也是中国计算机学会推荐的...

自用学习论文之DBNet

标签：学习人工智能论文阅读

语音新手入门，学习读懂论文。本文作者机构是。

数据挖掘学习

标签：数据挖掘学习数据仓库

数据挖掘的定义：从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或者...也称为维、特征、变量（同义词）定类型：可以标记或分类为变量内互斥类别的数据二值型数值型：离散/连续。

MATLAB算法实战应用案例精讲-【数据分析】时序异常检测（补充篇）（附Java、R语言和python代码实现）

标签： matlab 算法数据分析

在大数据时代，时间序列分析已经成为 AI 技术的一个分支，通过将时间序列分析与分类模型相结合，更好的应用于数据检测、预测等场景。重构误差阈值设定的方法Doyle于1962年提出的P-Tile (即P分位数法)可以说是最古老...

捕捉运动中的人体：基于单目视频的时间关注3D人体姿势和形状估计方法

标签：运动中的人体姿势 3D人体姿势估计视频信息捕捉时间相关性建模深度模糊问题

0摘要学习捕捉人体动作对于从单目视频中估计3D人体姿势和形状至关重要。然而，现有的方法主要依赖于循环或卷积操作来建模这种时间信息，这限制了捕捉人体动作的非局部上下文关系的能力。为了解决这个问题，我们提出...

ICML 2023 时间序列预测和时空预测论文总结

标签：大数据智慧城市数据挖掘

本文总结了ICML 2023 有关时间序列预测...**相关链接中，我也总结了机器学习三大会以及数据挖掘顶会中时序和时空相关的文章，感兴趣的读者也可以参考学习。如果对您有用，还请您点赞，收藏和转发。感谢您的支持。

【论文笔记】Multi-modal Facial Affective Analysis based on Masked Autoencoder

标签：论文阅读深度学习计算机视觉

首先，在大规模面部图像数据集上自监督地预训练MAE(Masked Autoencoder)，使之学习到一系列人类面部的大致特征。接着，利用Aff-wild2数据集的静态图像来微调MAE。然后使用TMF（时序多模态融合）来发掘多模态信息...

浅读A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

标签：手语翻译阅读论文迁移学习

现有的手语数据集（如PHOENIX-2014T、CSL-Daily）只包含大约10K-20K对手语视频、手语标注和文本，数量比训练口语翻译模型的平行数据少一个数量级。因此，数据是训练有效的手语翻译模型的瓶颈。为了缓解这个问题，...

【论文收集】

标签：人工智能深度学习

本文提出VideoReTalking，一种新的系统，根据输入音频编辑真实世界的说话头视频的人脸，即使具有不同的情感，也能产生高质量的和对口型的输出视频。我们模型的另一个独特优势是，由于我们的模型基于扩散模型，它可以...

云计算实战应用案例精讲-【深度学习】多模态融合（论文篇四）

标签：人工智能自然语言处理

能凸显数据特征，挖掘生理信号的时频域特征和时序特征的有效深度特征。学家们就情绪的基本特性达成了共识，认为情绪与人的生理变化相关联，持续时间短，连接和参数，网络模型的复杂度低，易于训练，该优势对于输入细...

基于计算机视觉的 Transformer 研究进展

标签：深度学习人工智能

目前，基于的图像分类研究大致可以分为 iGPT和ViT系列，本小节对部分图像分类方法从参数量和 Top1上的准确率进行了对比，如表2所示，“-”表示没有相关数据。此外，分析了数据集的大小对模型性能的影响，类比了 BiT...

遮挡场景下视频实例分割怎么做？牛津阿里最新开源OVIS数据集！

标签：算法人工智能机器学习

点击上方“CVer”，选择加"星标"置顶重磅干货，第一时间送达本文系CVer粉丝投稿，欢迎大家分享优质的工作本文介绍一下我们最近公开的视频实例分割数据集OVISOcclud...

ECCV 2022 | 腾讯优图29篇论文简介，含人脸安全、图像分割、目标检测等多个研究方向...

标签：大数据计算机视觉神经网络

来源：腾讯优图近日，欧洲计算机视觉国际会议ECCV 2022（European Conference on Computer Vision）发布了论文录用结果。本届ECCV 2022论文总投稿数超过8170篇，其中1629篇论文中选，录用率不足20%。...

ECCV 2022 | 腾讯优图29篇论文入选，含人脸安全、图像分割、目标检测等多个研究方向...

标签：大数据计算机视觉神经网络

来源：腾讯优图近日，欧洲计算机视觉国际会议ECCV 2022（European Conference on Computer Vision）发布了论文录用结果。本届ECCV 2022论文总投稿数超过8170篇，其中1629篇论文中选，录用率不足20%。...

【基于深度学习的脑电图识别】应用篇：DEEP LEARNING APPROACHES FOR AUTOMATIC ANALYSIS OF EEGS

标签：神经网络深度学习人工智能

DEEP LEARNING APPROACHES FOR AUTOMATIC ANALYSIS OF EEGS摘要：数据：时序信号的时序建模：摘要：在本章中，我们将讨论各种深度学习架构在自动捕获检测中的应用，研究的体系结构包括多层感知器(MLPs)、卷积神经...

“Python小屋”1300篇历史文章分类速查表

标签：程序设计可视化 sqlite

总体说明：各分类中的文章是按发布时间逆序排列的，动态更新。公众号所有代码均可作为教学案例，转载请注明出处，请勿用作商业用途。快速查找历史文章的方法：1）单击本文右上角的按钮“...”，然后在弹出的窗口中...